智能论文笔记

Rethinking Label Smoothing on Multi-hop Question Answering

Zhangyue Yin , Yuxin Wang , Yiguang Wu , Hang Yan , Xiannian Hu , Xinyu Zhang , Zhao Cao , Xuanjing Huang , Xipeng Qiu

分类：自然语言处理

2022-12-19

Label smoothing is a regularization technique widely used in supervised learning to improve the generalization of models on various tasks, such as image classification and machine translation. However, the effectiveness of label smoothing in multi-hop question answering (MHQA) has yet to be well studied. In this paper, we systematically analyze the role of label smoothing on various modules of MHQA and propose F1 smoothing, a novel label smoothing technique specifically designed for machine reading comprehension (MRC) tasks. We evaluate our method on the HotpotQA dataset and demonstrate its superiority over several strong baselines, including models that utilize complex attention mechanisms. Our results suggest that label smoothing can be effective in MHQA, but the choice of smoothing strategy can significantly affect performance.

translated by 谷歌翻译

Coupled Modeling and Fusion Control for a Multi-modal Deformable Land-air Robot

Xinyu Zhang , Yuanhao Huang , Kangyao Huang , Ziqi Zhao , Jingwei Li , Huaping Liu , Jun Li

分类：机器人

2022-11-08

This paper introduces a structure-deformable land-air robot which possesses both excellent ground driving and flying ability, with smooth switching mechanism between two modes. The elaborate coupled dynamics model of the proposed robot is established, including rotors, chassis, especially the deformable structures. Furthermore, taking fusion locomotion and complex near-ground situations into consideration, a model based controller is designed for landing and mode switching under various harsh conditions, in which we realise the cooperation between fused two motion modes. The entire system is implemented in ADAMS/Simulink simulation and in practical. We conduct experiments under various complex scenarios. The results show our robot can accomplish land-air switching swiftly and smoothly, and the designed controller can effectively improve the landing flexibility and reliability.

translated by 谷歌翻译

Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence

Junjie Wang , Yuxiang Zhang , Lin Zhang , Ping Yang , Xinyu Gao , Ziwei Wu , Xiaoqun Dong , Junqing He , Jianheng Zhuo , Qi Yang

分类：自然语言处理

2022-09-07

如今，基础模型已成为人工智能中的基本基础设施之一，铺平了通往通用情报的方式。但是，现实提出了两个紧急挑战：现有的基础模型由英语社区主导；用户通常会获得有限的资源，因此不能总是使用基础模型。为了支持中文社区的发展，我们介绍了一个名为Fengshenbang的开源项目，该项目由认知计算与自然语言研究中心（CCNL）领导。我们的项目具有全面的功能，包括大型预培训模型，用户友好的API，基准，数据集等。我们将所有这些都包装在三个子项目中：风水次模型，风水框架和狂热基准。 Fengshenbang的开源路线图旨在重新评估中国预培训的大型大型模型的开源社区，促使整个中国大型模型社区的发展。我们还希望构建一个以用户为中心的开源生态系统，以允许个人访问所需的模型以匹配其计算资源。此外，我们邀请公司，大学和研究机构与我们合作建立大型开源模型的生态系统。我们希望这个项目将成为中国认知情报的基础。

translated by 谷歌翻译

Intelligent Amphibious Ground-Aerial Vehicles: State of the Art Technology for Future Transportation

Xinyu Zhang , Jiangeng Huang , Yuanhao Huang , Kangyao Huang , Lei Yang , Yan Han , Li Wang , Huaping Liu , Jianxi Luo , Jun Li

分类：机器人

2022-07-23

两栖地面汽车将飞行和驾驶模式融合在一起，以实现更灵活的空中行动能力，并且最近受到了越来越多的关注。通过分析现有的两栖车辆，我们强调了在复杂的三维城市运输系统中有效使用两栖车辆的自动驾驶功能。我们审查并总结了现有两栖车辆设计中智能飞行驾驶的关键促成技术，确定主要的技术障碍，并提出潜在的解决方案，以实现未来的研究和创新。本文旨在作为研究和开发智能两栖车辆的指南，以实现未来的城市运输。

translated by 谷歌翻译

IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training

Xinyu Huang , Youcai Zhang , Ying Cheng , Weiwei Tian , Ruiwei Zhao , Rui Feng , Yuejie Zhang , Yaqian Li , Yandong Guo , Xiaobo Zhang

分类：计算机视觉 | 机器学习

2022-07-12

具有大尺度图像文本对的视觉预训练（VLP）在各个领域都表现出卓越的性能。但是，Internet上的图像文本对共存通常缺乏明确的对齐信息，这对于VLP来说是次优的。建议采用现成的对象检测器来利用其他图像标签信息。但是，对象检测器是耗时的，只能识别预定义的对象类别，从而限制了模型容量。受到观察的启发，即文本包含不完整的细粒图像信息，我们介绍了Ideas，该想法代表通过在线多标签识别VLP来增加文本多样性。想法表明，可以在VLP期间共同优化从文本中提取的图像标签的多标签学习。此外，想法可以在线识别有价值的图像标签，以提供更明确的文本监督。全面的实验表明，想法可以显着提高多个下游数据集上的性能，并具有较小的额外计算成本。

translated by 谷歌翻译

WPPG Net: A Non-contact Video Based Heart Rate Extraction Network Framework with Compatible Training Capability

Weiyu Sun , Xinyu Zhang , Ying Chen , Yun Ge , Chunyu Ji , Xiaolin Huang

分类：计算机视觉

2022-07-04

我们的面部皮肤呈现出细微的色彩变化，称为远程光绘画（RPPG）信号，我们可以从中提取受试者的心率。最近，提出了许多有关RPPG信号提取的深度学习方法和相关数据集。但是，由于耗时血液流过我们的身体和其他因素，标签波（例如BVP信号）在某些数据集中具有实际RPPG信号的不确定延迟，这导致难以训练网络的训练，这些网络直接预测了RPPG波。在本文中，通过分析RPPG信号和标签波的节奏和周期性的共同特征，我们提出了一组包裹这些网络的训练方法，以便在在数据集中频繁地延迟数据的情况下进行训练时可以保持有效的效率。与其他无延迟RPPG提取方法相比，获得更精确和健壮的心率预测结果。

translated by 谷歌翻译

IL-MCAM: An interactive learning and multi-channel attention mechanism-based weakly supervised colorectal histopathology image classification approach

Haoyuan Chen , Chen Li , Xiaoyan Li , Md Mamunur Rahaman , Weiming Hu , Yixin Li , Wanli Liu , Changhao Sun , Hongzan Sun , Xinyu Huang

分类：计算机视觉

2022-06-07

近年来，大肠癌已成为危害人类健康最重要的疾病之一。深度学习方法对于结直肠组织病理学图像的分类越来越重要。但是，现有方法更多地集中在使用计算机而不是人类计算机交互的端到端自动分类。在本文中，我们提出了一个IL-MCAM框架。它基于注意机制和互动学习。提出的IL-MCAM框架包括两个阶段：自动学习（AL）和交互性学习（IL）。在AL阶段，使用包含三种不同注意机制通道和卷积神经网络的多通道注意机制模型用于提取多通道特征进行分类。在IL阶段，提出的IL-MCAM框架不断地将错误分类的图像添加到交互式方法中，从而提高了MCAM模型的分类能力。我们对数据集进行了比较实验，并在HE-NCT-CRC-100K数据集上进行了扩展实验，以验证拟议的IL-MCAM框架的性能，分别达到98.98％和99.77％的分类精度。此外，我们进行了消融实验和互换性实验，以验证三个通道的能力和互换性。实验结果表明，所提出的IL-MCAM框架在结直肠组织病理学图像分类任务中具有出色的性能。

translated by 谷歌翻译

Symmetry and Uncertainty-Aware Object SLAM for 6DoF Object Pose Estimation

Nathaniel Merrill , Yuliang Guo , Xingxing Zuo , Xinyu Huang , Stefan Leutenegger , Xi Peng , Liu Ren , Guoquan Huang

分类：机器人

2022-05-04

我们提出了一个基于按键的对象级别的SLAM框架，该框架可以为对称和不对称对象提供全球一致的6DOF姿势估计。据我们所知，我们的系统是最早利用来自SLAM的相机姿势信息的系统之一，以提供先验知识，以跟踪对称对象的关键点 - 确保新测量与当前的3D场景一致。此外，我们的语义关键点网络经过训练，可以预测捕获预测的真实错误的关键点的高斯协方差，因此不仅可以作为系统优化问题中残留物的权重，而且还可以作为检测手段有害的统计异常值，而无需选择手动阈值。实验表明，我们的方法以6DOF对象姿势估算和实时速度为最先进的状态提供了竞争性能。我们的代码，预培训模型和关键点标签可用https://github.com/rpng/suo_slam。

translated by 谷歌翻译

DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for Multilingual Named Entity Recognition

Xinyu Wang , Yongliang Shen , Jiong Cai , Tao Wang , Xiaobin Wang , Pengjun Xie , Fei Huang , Weiming Lu , Yueting Zhuang , Kewei Tu

分类：自然语言处理 | 机器学习

2022-03-01

Multiconer共享的任务旨在检测在多种语言的简短和低文本设置中，在语义上模棱两可且复杂的命名实体。缺乏上下文使人们对歧义的命名实体的认识充满挑战。为了减轻此问题，我们的团队Damo-NLP提出了一个基于知识的系统，我们在其中建立了基于Wikipedia的多语言知识基础，以向指定的实体识别（NER）模型提供相关的上下文信息。给定输入句子，我们的系统有效地从知识库中检索了相关上下文。然后，将原始输入句子加强此类上下文信息，从而可以捕获明显更好的上下文化令牌表示。我们的系统在Multiconer共享任务中赢得了13个曲目中的10个。

translated by 谷歌翻译

SPTS: Single-Point Text Spotting

Dezhi Peng , Xinyu Wang , Yuliang Liu , Jiaxin Zhang , Mingxin Huang , Songxuan Lai , Shenggao Zhu , Jing Li , Dahua Lin , Chunhua Shen

分类：计算机视觉

2021-12-15

几乎所有场景文本发现（检测和识别）方法依赖于昂贵的框注释（例如，文本线框，单词级框和字符级框）。我们首次证明培训场景文本发现模型可以通过每个实例的单点的极低成本注释来实现。我们提出了一种端到端的场景文本发现方法，将场景文本拍摄作为序列预测任务，如语言建模。给予图像作为输入，我们将所需的检测和识别结果作为一系列离散令牌制定，并使用自动回归变压器来预测序列。我们在几个水平，多面向和任意形状的场景文本基准上实现了有希望的结果。最重要的是，我们表明性能对点注释的位置不是很敏感，这意味着它可以比需要精确位置的边界盒更容易地注释并自动生成。我们认为，这种先锋尝试表明了场景文本的重要机会，比以前可能的比例更大的比例更大。

translated by 谷歌翻译